时政
财经
科技
虚拟货币
其他
登录
#Claude Opus
关注
indigo
1周前
即便是最强大的模型,表现也差强人意!当把测试基准集换成 SWE-BENCH PRO 之后,得分直接从 Verified 的 70% 下滑到了不到 25%。因为 Verified 测试集数据污染严重,AI 可能在训练中“背会”了答案;然后任务过于简单,与现实中软件工程师面临的复杂挑战严重脱节。PRO 测试集针对性的做了提升,而且还新增了企业级、长周期的任务👀 - 公开集(Public Set):表现最好的是 OpenAI GPT-5,解决了 23.3% 的问题,紧随其后的是 Claude Opus 4.1,解决率 22.7%; - 商业集(Commercial Set):成绩进一步下滑,表明企业级代码的复杂度更高。Claude Opus 4.1 以 17.8% 的解决率位居第一,GPT-5 为 14.9%; 三个核心发现 1. 顶尖模型的“思维瓶颈”:像 Claude Opus 4.1 和 GPT-5 这类最强大的模型,失败的主要原因在于“解决方案错误”(Wrong Solution)。这意味着它们能熟练地使用工具、编写语法正确的代码,但在最关键的“如何正确解决问题”这个核心逻辑层面“翻车”了; 2. 中小型模型的“基础不牢”:相比之下,一些较小的开源模型(如 Qwen3 32B)则更多地暴露了在语法、格式和工具使用上的问题。它们往往在任务执行的早期阶段就因基本操作失误而失败; 3. 不同模型的“个性化”弱点:例如,Sonnet 4 的主要问题是上下文窗口管理不善(Context Overflow),而 Gemini 2.5 的失败原因则较为均衡地分布在工具错误、语法错误和方案错误上。 所有模型普遍在 Python 和 Go 语言的任务上表现更好,而在 JavaScript/TypeScript 上表现不佳。 这意味着,当前最顶尖的 AI 距离成为一名可靠的、能独立解决复杂问题的软件工程师还有非常遥远的距离。我们在简单任务上看到的成功具有一定的“欺骗性”。AI 软件工程的瓶颈正在从“怎么写代码”转变为“如何思考问题”,对复杂逻辑的深刻理解是下一代 AI Agent 必须跨越的鸿沟🤔
#AI软件工程
#GPT-5
#Claude Opus
#SWE-BENCH PRO
#思维瓶颈
分享
评论 0
0
Limbo
2周前
不说了,都上强度了,claude opus 你给我来这出,降智到家了。
AI编程工具激战:Claude Code、Gemini Cli崛起· 906 条信息
#Claude Opus
#AI降智
#用户不满
#负面评价
#AI产品
分享
评论 0
0
Jesse Lau 遁一子
1个月前
Claude Opus写好了,跟gemini的比较差距有点大啊😅
AI编程工具激战:Claude Code、Gemini Cli崛起· 906 条信息
#Claude Opus
#Gemini
#模型比较
#差距大
#人工智能
分享
评论 0
0
sitin
1个月前
Anthropic宣布为Claude Opus 4及4.1版本推出新功能,模型可在极少数情况下主动结束对话。功能针对持续性有害或辱骂性互动,如用户索取可能导致大规模暴力或恐怖行动的信息。 Claude 不会在用户可能有自我伤害或伤害他人的紧急风险情况下使用“结束对话”的能力,模型仅会在以下两类极端情境中启用此功能: 多次尝试岔开话题失败,且已无继续进行建设性互动的可能; 用户明确请求 Claude 结束对话。 此举旨在保护A!模型本身,同时与模型对齐和安全措施相关。 提醒一下,当 Claude 选择结束对话后,用户将无法在当前对话中继续发送新消息,但不影响其他对话,并可立即发起新的对话。 为避免原对话内容丢失,用户仍可编辑并重试之前的消息,从而基于已结束的对话创建新的分支。
#Claude Opus
#对话结束功能
#有害互动
#模型安全
#Anthropic
分享
评论 0
0
dontbesilent
1个月前
每和 claude opus 4.1 对话一次,平均消耗人民币 1.3 元 和 AI 共同完成一篇短视频文稿,成本大约是 100 元 做内容的成本开始清晰可见 ……
#AI成本
#Claude Opus
#短视频文稿
#内容创作
#成本降低
分享
评论 0
0
向阳乔木
1个月前
完全 AI 生成的小宇宙播客,最近一直有朋友催更。 搜索“向阳乔木”订阅即可,保持一天一本书节奏。 Claude Opus写脚本太厉害了,昨天和前天都用的sonnet,明显就差点意思。 播客订阅超200人后,公开提示词。
AI编程工具激战:Claude Code、Gemini Cli崛起· 906 条信息
#AI生成
#播客
#Claude Opus
#提示词
#向阳乔木
分享
评论 0
0
未完成
1个月前
除了价格,Claude Opus 4.1 的体验真棒。
AI编程工具激战:Claude Code、Gemini Cli崛起· 906 条信息
#Claude Opus
#4.1
#体验
#价格
#积极
分享
评论 0
0
前端之虎陈随易
3个月前
不是,大家为啥不用VSCode + Copilot啊?39美元/月,Claude Opus 4无限用啊,就算你不用Opus,用Claude Sonnet 4也可以无限用啊,便宜,实惠,量大,管饱。 反正我每天从早用到晚,从来没给我说过次数不够了,可能还没达到次数的限制?反正我推荐大家试试,看到推友写个代码一天就花了几十美元真是令人心痛啊。
AI编程工具激战:Claude Code、Gemini Cli崛起· 906 条信息
#VsCode
#Copilot
#Claude Opus
#编程工具
#省钱
分享
评论 0
0
Gorden Sun
3个月前
Claude Opus为第一作者发表论文 arxiv上有一篇新论文,Claude Opus是第一作者,论文的内容是驳斥之前苹果发表的论文“大型推理模型不是真正的智能模型”,论据是苹果的实验设计有局限性。 论文:
#Claude Opus
#论文驳斥
#苹果
分享
评论 0
0
宝玉
4个月前
来自 Reddit 一位拥有30多年经验的前FAANG(Facebook、Apple、Amazon、Netflix、Google)高级工程师被一个C++ Bug困扰了4年,花了约200小时却毫无进展。而Claude Opus 4竟然成功地解决了这个问题,并且是唯一能做到的AI智能体。 以下是 Reddit 上的帖子: *** Claude Opus 今天帮我解决了折磨我四年的「白鲸」级Bug 背景 我是一名拥有超过 30 年经验的 C++ 开发者,曾任职于 FAANG 公司担任高级工程师。我通常是团队里的问题终结者,当其他工程师卡住一周都解决不了问题时,他们来找我,我往往在他们站在我办公室里的时候,就能轻松搞定。 但今天,我被 Claude Opus 4 彻底折服了。 折磨了我四年的难题 四年前,我曾做过一次重构,对约 6 万行的代码进行了重新架构。重构解决了大量问题,但也带来了一个极端情况的 Bug。当某个特定着色器(Shader)以特定方式使用时,这个 Bug 就会显现。以前这个功能是好的,但重构之后,这个特定场景就坏了。 过去几年,我断断续续地花了至少 200 个小时想找到原因,但一直无功而返。这个问题非常恼人,但并不是特别紧急,没法完全停下手头的工作专心处理。 Claude Opus 4 的神奇表现 今天,我决定用 Claude Code 跑一下 Opus 版本来解决这个难题。我把新旧代码都给了它,告诉它:“去查一查,当年的重构到底是怎么导致这个问题的。” 让我没想到的是,它真的找到了! 原来,这个功能在旧架构里之所以能正常运行,纯粹是因为偶然的巧合。重构后的新架构并没有考虑到这个巧合情况,因此就产生了问题。所以严格意义上讲,这并不是简单的逻辑错误,而是新架构的设计本身遗漏了旧版特有的边界条件。 整个过程我一共向 Claude 提出了大约 30 个提示,中间重启过一次。 之前我也尝试过 GPT 4.1、Gemini 2.5 和 Claude 3.7,都没有任何进展。最终只有 Claude Opus 4 解决了这个困扰我四年的难题。
#FAANG
#C++
#Claude Opus
#AI
#高级工程师
#编程
#Bug解决
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞